當然我們在設計有效性系統, 一定有一些目標, 且這些是可以是被量化的, 也就是說也可以成為一個被衡量的指標, 也就是 Key Performance Indicator/Index, KPI, 關鍵 表現/績效 指示/指標.
而在高有效性的 KPI 中有那些呢?
有效度 Availibility, 指的是這系統的穩定度, 例如最高是 100%, 代表這系統在這段時間完全是有效的.
停機時間 Downtime, 這個可以用一年或一段時間來看, 例如一年停機在 30 分鐘或幾小時內, 也可以是用比例的, 即最好的話是 0.00 無停機時間.
非計畫停機 Un-Schedule Downtime, 有時候一個系統無論如何還是要有計畫的維護, 升級等等的動作造成停機, 若這個停機時間是可被控制或在規劃之中, 就是 Scheduled Downtime, 相對的一個 KPI 算的可以是計劃之外的停機.
平均失效時間 Mean Time Between Failure (MTBF), 在一個固定成本或一的運作的單位不太可能不會失效, 但若能夠失效的次數是越少越好, 也就是間距越長越好, 也是我們期望的, 且通常在一個物理性的觀點來看, 當一個物件一開始有失效的狀態, 下次失效的機會也越高, 也就是要去致置換的時間, 而能提高 MTBF, 往往也可以控制成本.
回復/回應時間 Recovery/Response Time: 當出問題時, 要多快能夠開始處理, 或回復正常須要多少時間, 是衡量一個 HA 系統一個很重要的 KPI.
最大損失成本 Max Lost Cost: 再怎樣當系統出問題還是會造成損失, 而把最大系統因為資料出錯或系統出錯的損失降低, 是 HA 去算出來成為 KPI 外, 更重要的是也知道接下來可以用的資源以及預期的 Downtime 可以到多少? 通常在一個在做 Snap Shot 快照的資料庫, 也可以算出須要的週期以及負擔.
系統最高負荷量 System Highest ThroughPut: 當然除了失敗之外, 最重要的是效能, 這個系統能夠負荷多少的使用量, 能夠有多少收益, 能夠產生多少產品, 都是這套系統衡量的指標, 尤其是在控制的成本範圍內如何提升, 是 HA 一個很重要的工作.
平均反應速度 Average Response Time: 除了 Throughtput 外, 就是反應, 也就是提出須求到開始有結果的時間, 尤其這對一個會面對 End-User 終端使用者的系統是相當重要的, 因為反應就是很重要的 UEO User Experience Optimization.
成本效益指標 Cost Performance Index, C/P: 有效性往往是靠資源與錢堆積出來的, 但也不可能無限的去擴張資源須求, 當去面對成本效益時, 就是一個很重要的 KPI.
最終 KPI: 這個最終 KPI 在企業可能就是營收與利潤, 雖然這並不是直接高有效性要去面度的, 但最終也是要去面對的, 由其是要設計出一個好的系統, 除了由下到上外, 最後也是要由上到下, 最後能夠去面對甚麼就是最終的 KPI.
雖然說, 量化往往是原罪, 使用者經驗不該也很難去計算, 但量化的 KPI 我們必須要視為一個參考值, 而不是最終表現, 畢竟就公司而言營收是重要, 但對社會責任與對員工也是很重要該做的事, 這些都是很難被 KPI 量化的.
技術是讓人去延伸視野, 但始終還是要取自於人性.
讀者來函
genehong提到:
在企業可能就是營收護利潤
「護」疑為「或」字之誤
genehong提到:
但使終還是要取自於人性
「使終」疑為「始終」之誤
請教兩個問題
1.KPI
文中所提比較像是HA的PI
如果是KPI的話
是否只是其中幾個?
如果請您挑出最具代表性的前三名的話
您會選那三個做為KPI呢
2.KPI vs SLA
這裡的KPI與先前提過的SLA
似乎有某種程度的相關性
是否正確?
我是錯字大王, 謝謝指正...
剛好 1, 3, 5 是我通常建議的 KPI...
SLA 通常是對外, KPI 通常是對內, SLA 往往會包含 Business Model, KPI 則是比較分散...
了解了